FILTER MODE ACTIVE

#эффективность демонстраций

Найдено записей: 1

#эффективность демонстраций15.10.2025

Early Experience: обучение языковых агентов на собственных результатах без наград

'Early Experience использует состояния, сгенерированные агентом, как супервижен и превосходит имитационное обучение на восьми задачах, улучшая старт для последующего RL.'